데이터분석 준전문가 기출문제 문제은행 - 뉴비티::새로운 CBT 문제풀이 시스템

데이터 이해

1. 1. 다음중 데이터의 특성이 다른 하나는?

1
풍량
2
강수량
3
기상특보
4
습도

2. DIKW 피라미드 예시 중 맞는 것은?

1
D(Data): A마트는 100원, B마트는 200원에 연필을 판매한다.
2
I(Information): B마트가 A마트보다 연필이 100원 더 비싸다.
3
K(Knowledge): B가 A보다 연필이 더 싸니깐 B에서 사야겠다.
4
W(Wisdom): 문구류는 전반적으로 A마트가 더 저렴할 것이다.

3. 데이터사이언티스트에게 필요한 역량이 아닌 것은?

1
스토리텔링
2
비즈니스 분석기법
3
네트워크 구축 역량
4
통계적 사고능력

4. 데이터베이스의 진행 절차를 올바른 순서대로 나열한 것은?

1
통합 - 저장 - 공유 - 변화
2
저장 - 통합 - 변화 - 공유
3
공유 - 저장 - 통합 - 변화
4
변화 - 통합 - 저장 - 공유

5. 빅데이터 위기 요인이 아닌 것은?

1
사생활 침해
2
책임원칙훼손
3
데이터오용
4
분석기술의 발달

6. 빅데이터가 만들어내는 변화로 옳은 것은?

1
사후조사 → 사전예측
2
표본조사 → 전수조사
3
질적분석 → 양적분석
4
인과관계 → 상관관계

7. 빅데이터가 미치는 영향이 아닌 것은?

1
고객에게 획일화된 서비스 제공
2
맞춤형 서비스 확대
3
업무 프로세스 최적화
4
새로운 가치 창출

8. 빅데이터의 사생활침해 해결방법은?

1
제공자 동의에서 사용자 책임으로 전환한다
2
데이터 수집 범위를 제한한다
3
개인정보 비식별화를 강화한다
4
데이터 보안 시스템을 구축한다

9. 빅데이터가 발전한 요인이 아닌 것은?

1
정형 데이터의 폭증
2
하둡 등 분산처리 기술의 발전
3
SNS 등 비정형 데이터의 증가
4
클라우드 컴퓨팅의 발전

10. 연결된 상태로 연결을 관리해야할 때를 설명하는 것은?

1
연결성
2
디지털화
3
에이전시
4
네트워크 효과

데이터 분석 기획

11. KDD 분석방법론의 올바른 순서는?

1
Selection - Preprocessing - Transformation - Data Mining - Interpretation/Evaluation
2
Preprocessing - Selection - Transformation - Data Mining - Interpretation/Evaluation
3
Selection - Transformation - Preprocessing - Data Mining - Interpretation/Evaluation
4
Preprocessing - Transformation - Selection - Interpretation/Evaluation - Data Minin

12. 전체 학생 중 한명을 뽑았더니 사과를 좋아할 확률은?

1
4/10
2
3/5
3
1/2
4
3/10

13. CRISP-DM의 업무이해 단계로 맞는 것은?

1
업무 상황파악 - 데이터 마이닝 목표설정 - 프로젝트 계획 수립
2
데이터 마이닝 목표설정 - 프로젝트 계획 수립 - 업무 상황파악
3
프로젝트 계획 수립 - 업무 상황파악 - 데이터 마이닝 목표설정
4
업무 상황파악 - 프로젝트 계획 수립 - 데이터 마이닝 목표설정

14. 4V에서 비즈니스 효과에 해당하는 것은?

1
Value
2
Volume
3
Velocity
4
Variety

15. 프로세스 내재화에 대한 설명 중 분석 결과를 활용하고, 혁신 및 성과 향상에 기여하는 것은?

1
도입
2
활용
3
확산
4
최적화

16. 상향식 방법론으로 옳지 않은 것은?

1
문제정의를 명확히 할 수 있을 때 사용한다
2
데이터 중심의 접근방식이다
3
데이터를 통해 인사이트를 도출한다
4
탐색적 분석이 중심이 된다

17. 분석과제에서 고려해야할 요소가 아닌 것은?

1
데이터 크기(규모)
2
속도
3
복잡도
4
데이터 분류

18. 시급성이 현재일 때 가장 먼저 고려할 것은?

1
전략적 중요도
2
실현 가능성
3
데이터 확보 용이성
4
분석 난이도

19. 데이터분석 준비시 고려의 중요도가 가장 낮은 것은?

1
비용
2
분석업무이해
3
분석문화
4
분석기법

20. 협의의 데이터플랫폼의 구성요소인 것은?

1
분석 어플리케이션
2
분석 서비스 제공 API
3
분석 라이브러리
4
분석 서비스 엔진

데이터 분석

21. 분석 방법은 알고 대상은 모를 때 사용할 수 있는 방법은?

1
발견
2
통찰
3
최적화
4
솔루션

22. 회귀모형 선택방법에 대한 설명 중 틀린 것은?

1
AIC는 모형의 적합도와 복잡성을 고려한다
2
R-제곱은 설명력을 나타내는 지표이다
3
조정된 R-제곱은 변수 수를 고려한다
4
BIC는 베이즈 정리에 기반하여 복잡한 모형에 더 큰 페널티를 부여한다

23. 혼합분포군집에서 사용하는 알고리즘은?

1
EM 알고리즘
2
K-means
3
계층적 군집화
4
DBSCAN

24. TV-라디오 R코드 해석 문제

1
TV와 라디오 사이의 교호관계가 있어 통계 모형이 유의하다
2
TV:radio 통계 모형이 유의하다
3
TV가 1 증가할 때 RADIO와 상관없이 SALES가 오른다
4
모형의 설명력은 약 67%이다

25. 분해시계열 요인 중 옳지 않은 것은?

1
추세요인
2
계절요인
3
교호요인
4
순환요인

26. 다음 중 지도학습이 아닌 것은?

1
로지스틱회귀분석
2
의사결정나무
3
인공신경망
4
SOM

27. 회귀방정식 탐색방법 중 잘못된 것은?

1
후진선택법은 상수항만 남을때까지 제거한다
2
전진선택법은 변수를 하나씩 추가한다
3
단계적 선택법은 변수를 추가하거나 제거할 수 있다
4
모든 가능한 회귀는 모든 조합을 검토한다

28. 앙상블기법이 아닌 것은?

1
시그모이드
2
배깅
3
부스팅
4
스태킹

29. 이상치를 이용하기에 가장 적절한 시스템인 것은?

1
부정구매 방지시스템
2
추천시스템
3
수요예측시스템
4
고객분류시스템

30. 매우만족 - 만족 - 보통 - 불만 - 매우 불만족은 무슨 척도인가?

1
서열척도
2
명목척도
3
구간척도
4
비율척도

31. 의사결정트리에서 범주형 변수에서의 분할방법에서 사용하는 것으로 옳지 않은 것은?

1
카이제곱 통계량
2
지니지수
3
엔트로피지수
4
분산감소량

32. 주장하고자 하는 가설이 실제로는 예상보다 이상값이 도출될 확률이 높은 것은?

1
알파
2
P-value
3
베타
4
1-알파

33. 다음에서 t통계량을 계산하시오

1
2.348 / 0.312 (회귀계수 / 오차)
2
0.312 / 2.348 (오차 / 회귀계수)
3
2.348 * 0.312 (회귀계수 * 오차)
4
(2.348 + 0.312) / 2

34. 다음 표로부터 오분류율을 계산하시오.

1
13/20 = (FP + FN)/전체 = (8 + 5)/20 = 0.65
2
(TP + TN)/전체 = (2 + 5)/20 = 0.35
3
TP/(TP + FP) = 2/(2 + 8) = 0.2
4
TN/(TN + FN) = 5/(5 + 5) = 0.5

35. 보기의 내용을 통해 도출한 A질병 진단받은 사람 중 A질병 가진 사람 비율은?

[보기]

- 전체 중 A질병 가진사람: 10%

- 전체 중 A질병 진단받은 사람: 20%

- A질병 진단받은 사람 중 A질병을 실제 가진 사람: 90%

1
1/9
2
2/9
3
9/20
4
9/10

36. 결측값에 대한 설명 중 틀린 것은?

1
완전연결법은 결측값 데이터를 완전히 삭제한다
2
다중대치법은 여러번 대치하여 여러개의 자료를 도출한다
3
확률단순선택법은 회귀분석을 사용한다
4
평균표준편차는 중앙값으로 대체한다

37. 군집분석에서 군집수를 결정하는 방법은?

1
엘보우방법
2
상관계수
3
유클리드거리
4
맨하탄거리

38. 모집단이 정규분포를 따를때 신뢰구간 95%가 다음과 같이 계산된다. 이중 틀린 설명은?

0.5 ± 1.96 / √100

1
신뢰구간 99%로 변경시 1.96대신 2.58이다
2
표본평균이 0.5이다
3
모집단의 평균값이 신뢰구간에 포함되지 않을 수 있다
4
동일한 모집단에서 같은 방식으로 표본을 추출하고 같은 방식으로 신뢰구간을 추정하면 동일한 값이 나온다

39. DBSCAN 관련하여 틀린 것은?

1
임의 형태의 군집으로 분류하는데 유용하다
2
밀도기반 군집화 알고리즘이다
3
초기 군집수 k를 설정해야한다
4
다차원 자료의 경우 '차원의 저주'로 인해 유용하지않다

40. 인공신경망관련 설명 중 틀린 것은?

1
은닉층이 적으면 과대적합, 은닉층 많으면 과소적합
2
은닉층이 많을수록 복잡한 패턴을 학습할 수 있다
3
활성화함수는 비선형성을 부여한다
4
과적합을 방지하기 위해 드롭아웃을 사용할 수 있다

41. 신용카드 고객의 파산확률을 yes, no로 예측하기에 적절하지 않은 방법은?

1
선형회귀분석
2
로지스틱 회귀분석
3
랜덤포레스트
4
SVM

42. 의사결정트리에서 더이상 세분화하지않고 멈출때 사용하는 기법은?

1
정지규칙
2
가지치기
3
비용복잡도
4
교차검증

43. 다중공선성 해결방법으로 옳지 않은 것은?

1
중요도가 낮으면서 상관계수가 높은 변수를 제거한다
2
구조적 다중공선성의 문제가 있는 경우에는 데이터의 평균 중심을 변화한다
3
주성분분석을 통해 차원을 축소한다
4
VIF를 이용하여 다중공선성 유무를 판단한다

44. 다중회귀모형에서 통계적으로 유의함을 판단할때 사용하는 검증은?

1
F검정
2
P-VALUE
3
T통계량
4
Z통계량

45. 데이터 베이스의 특징 중 ( ) 안에 들어갈 내용으로 알맞은 것은?

1. ( )데이터는 동일한 내용이 중복되지않게 함

2. ( )데이터는 컴퓨터가 접근할 수있는 매체에 저장

3. ( )데이터는 여러 사용자가 함께 사용가능

4. ( )데이터는 항상 변화해도 현재의 정확한 데이터를 유지해야함

1
공용 - 저장 - 통합 - 변화되는
2
저장 - 통합 - 공용 - 변화되는
3
통합된 - 저장 - 공용 - 변화되는
4
통합된 - 공용 - 변화되는 - 저장

46. 이상값에 대한 설명 중 틀린 것은?

1
범위의 경우 이상값 존재시 값이 커진다는 단점이 있다
2
평균대치법에는 조건부 평균대치법, 비조건부 평균대치법이 있다
3
이상값은 데이터의 품질을 저하시킬 수 있다
4
평균절대편차법은 중앙값이랑 변수 사이의 차이값들로 이루어진 것을 의미한다

47. 자기상관모형에 대한 설명으로 맞는 것은?

1
ARIMA는 비정상 시계열에만 사용한다
2
MA(q)는 과거의 관측값에 의존한다
3
계절성 ARIMA는 주기성을 고려하지 않는다
4
AR(1)은 1개의 시차, AR(2)는 2개의 시차 사용한다

48. 회귀모형의 가정에 대한 설명으로 옳은 것은?

1
잔차는 서로 독립이어야 한다
2
설명변수 간에는 높은 상관관계가 있어야 한다
3
잔차의 분산은 불균일해야 한다
4
잔차는 비정규분포를 따라야 한다

49. A를 선택할 확률 대비 B와 A를 같이 팔 때 얼마나 더 많이 팔리는가?

1
지지도
2
신뢰도
3
향상도
4
재현율

50. apriori 알고리즘에 대한 설명으로 옳은 것은?

1
순차적 패턴을 찾는데 사용된다
2
군집분석에 주로 활용된다
3
최소 지지도를 가정으로 한다
4
연속형 변수에만 적용 가능하다

데이터분석 준전문가 42회

데이터 이해

1. 1. 다음중 데이터의 특성이 다른 하나는?

2. DIKW 피라미드 예시 중 맞는 것은?

3. 데이터사이언티스트에게 필요한 역량이 아닌 것은?

4. 데이터베이스의 진행 절차를 올바른 순서대로 나열한 것은?

5. 빅데이터 위기 요인이 아닌 것은?

6. 빅데이터가 만들어내는 변화로 옳은 것은?

7. 빅데이터가 미치는 영향이 아닌 것은?

8. 빅데이터의 사생활침해 해결방법은?

9. 빅데이터가 발전한 요인이 아닌 것은?

10. 연결된 상태로 연결을 관리해야할 때를 설명하는 것은?

데이터 분석 기획

11. KDD 분석방법론의 올바른 순서는?

12. 전체 학생 중 한명을 뽑았더니 사과를 좋아할 확률은?

13. CRISP-DM의 업무이해 단계로 맞는 것은?

14. 4V에서 비즈니스 효과에 해당하는 것은?

15. 프로세스 내재화에 대한 설명 중 분석 결과를 활용하고, 혁신 및 성과 향상에 기여하는 것은?

16. 상향식 방법론으로 옳지 않은 것은?

17. 분석과제에서 고려해야할 요소가 아닌 것은?

18. 시급성이 현재일 때 가장 먼저 고려할 것은?

19. 데이터분석 준비시 고려의 중요도가 가장 낮은 것은?

20. 협의의 데이터플랫폼의 구성요소인 것은?

데이터 분석

21. 분석 방법은 알고 대상은 모를 때 사용할 수 있는 방법은?

22. 회귀모형 선택방법에 대한 설명 중 틀린 것은?

23. 혼합분포군집에서 사용하는 알고리즘은?

24. TV-라디오 R코드 해석 문제

25. 분해시계열 요인 중 옳지 않은 것은?

26. 다음 중 지도학습이 아닌 것은?

27. 회귀방정식 탐색방법 중 잘못된 것은?

28. 앙상블기법이 아닌 것은?

29. 이상치를 이용하기에 가장 적절한 시스템인 것은?

30. 매우만족 - 만족 - 보통 - 불만 - 매우 불만족은 무슨 척도인가?

31. 의사결정트리에서 범주형 변수에서의 분할방법에서 사용하는 것으로 옳지 않은 것은?

32. 주장하고자 하는 가설이 실제로는 예상보다 이상값이 도출될 확률이 높은 것은?

33. 다음에서 t통계량을 계산하시오

34. 다음 표로부터 오분류율을 계산하시오.

35. 보기의 내용을 통해 도출한 A질병 진단받은 사람 중 A질병 가진 사람 비율은?

36. 결측값에 대한 설명 중 틀린 것은?

37. 군집분석에서 군집수를 결정하는 방법은?

38. 모집단이 정규분포를 따를때 신뢰구간 95%가 다음과 같이 계산된다. 이중 틀린 설명은?

39. DBSCAN 관련하여 틀린 것은?

40. 인공신경망관련 설명 중 틀린 것은?

41. 신용카드 고객의 파산확률을 yes, no로 예측하기에 적절하지 않은 방법은?

42. 의사결정트리에서 더이상 세분화하지않고 멈출때 사용하는 기법은?

43. 다중공선성 해결방법으로 옳지 않은 것은?

44. 다중회귀모형에서 통계적으로 유의함을 판단할때 사용하는 검증은?

45. 데이터 베이스의 특징 중 ( ) 안에 들어갈 내용으로 알맞은 것은?

46. 이상값에 대한 설명 중 틀린 것은?

47. 자기상관모형에 대한 설명으로 맞는 것은?

48. 회귀모형의 가정에 대한 설명으로 옳은 것은?

49. A를 선택할 확률 대비 B와 A를 같이 팔 때 얼마나 더 많이 팔리는가?

50. apriori 알고리즘에 대한 설명으로 옳은 것은?